BIJUNG:17.3.4 멀티모달 입력 처리: 이미지, 자연어 명령, 그리고 로봇 상태(Proprioception)의 융합